Fichiers textes et documents (.doc, .pdf, .html, .ppt)
Courriels
Données issues des réseaux sociaux
Images
Fichiers sons
Vidéos
Logs de serveurs, sites, applications
Comment extraire les nombreuses informations contenues dans ces données non-structurées?
Difficultés
https://xkcd.com/1425/
Branches de l’IA
Vision par ordinateur (Computer Vision)
détection d’objet (Object Detection)
reconnaissance optique de caractères (Optical Character Recognition)
Traitement automatique du langage naturel (Natural Language Processing)
Progrès de la recherche dans ces branches de l’IA => amélioration des performances des systèmes
Panama papers
11.4 M fichiers, 2.6 To données
“Soit plusieurs décennies de lecture jour et nuit si l’on veut aller d’un bout à l’autre de la base de données – sans compter la complexité de certains dossiers.”